腾讯AI打赢王者职业选手,我们和背后的男人聊了聊
思路与人类迥异的「绝悟」AI战队,耗时16分15秒,团灭王者荣耀职业赛区联队的高手,推掉全部9塔和高地水晶,转身一跃升级到王者荣耀电竞职业水平。
表现出了与日常测试的水准,我们很满意。
累是不可能的,又不是我们下场打。
「绝悟」作为腾讯围棋AI「绝艺」的弟弟,后者已经成为国家队的陪练,而前者也开始崭露头脚。
早在去年的12月,「绝悟」就已经通过由前职业选手与主播联队带来的业余顶尖水平测试。
而这一次,「绝悟」跻身电竞职业水平,也意味着腾讯的AI已经走在了国际前沿。
白眼,你这是什么问题?……
其实,「绝悟」有部分成员来自围棋AI「绝艺」的团队。但「绝悟」有着和「绝艺」不一样的5v5长远策略能力,AI更培养了团队协作能力,打法果断,有舍有得。
是的。我们希望 AI 在学习如何做上千个小决定后,来达成更大的终极目标。
游戏其实是对真实世界的一种模拟,一种只有一个具体目标的模拟,这正是人工智能学习的绝佳试验场。
与去年12月的版本相比,此次达到职业水平的「绝悟」是完全使用深度强化学习模型,无需人类数据。
从白板学习(Tabula Rasa)开始,让 AI 自己与自己对战,一天的训练强度高达人类 440 年。
AI 从0到1摸索成功经验,勤学苦练,既学会了如何站位、打野、辅助保护和躲避伤害等游戏常识。
更惊喜的是,AI 也探索出了不同于人类常规做法的全新策略。
来欣赏一下,在比赛过程中,「绝悟」表现出了异于常人的骚套路。
比如:
游戏开局,「绝悟」探索出了一个全新的策略:由射手虞姬和法师王昭君先一起清理中路第一波兵线,再转上路压制上单曹操的血线。
熟知开局抢中路线权的重要性,而且两人吃线,每个人都各得80%的经济收益,并不影响英雄的前期发育。
这其实也给了我们一个更开拓的打法和思路。
4分24秒,「绝悟」四人追击敌方打野娜可露露,达摩一脚将娜可露露反踢入AI中群殴,最终达摩拿下属于AI首个人头。
这段时间,「绝悟」的打野雅典娜单带,而另外四个AI一直抱团。7分20秒,雅典娜反蓝成功,此时「绝悟」拿下3塔4人头20.9k经济,赛区联队拿下2塔3人头19.7k经济。
现场解说认为「绝悟」的效率和团队协作方面,都表现出色。“在4-1转线方面,几乎是做得完美。”
当职业选手三人压迫下路时,「绝悟」并没有选择退防,而是三人果断反压对方上路,最终双方互换一塔,让经济维持均势。
而最让人意外的是,当「绝悟」在职业选手的高地上完成1换5,对手团灭+两条主宰先锋上高地的情况下,「绝悟」却没有选择直接推水晶,而是秀了一波骚操作……
「绝悟」四人选择了利益最大化,以轮流抗塔的方式,无兵线支持,推掉了还有三分之二血量的最后一座高地塔。现场解说高声喊:“太绝了。”
16分15秒,「绝悟」推掉水晶,战胜赛区联队。
最终,「绝悟」拿下9塔18人头56.2k经济,赛区联队6塔13人头48.0k经济。
也就王者几十颗星而已啦。
不过我们平时在跟「绝悟」测试的时候,最多坚持到6分钟。尽管被虐得很惨,但确实给我们带来了很多新的战术和思路。
游戏中测试的难点就在于,AI 要在策略规划、英雄选择、技能应用、路径探索及团队协作等情况下,作出大量复杂快速的决策。
这里就预计会有高达10的20000次方种操作可能性,而整个宇宙原子总数也只是10的80次方。
此次测试的「绝悟」版本建立了基于“观察-行动-奖励”的深度强化学习模型,无需人类数据,从白板学习(Tabula Rasa)开始,让 AI 自己与自己对战,一天的训练强度高达人类 440 年。
AI 从0到1摸索成功经验,勤学苦练,既学会了如何站位、打野、辅助保护和躲避伤害等游戏常识。更惊喜的是,AI 也探索出了不同于人类常规做法的全新策略。
团队还创建One Model模型提升训练效率,优化通信效率提升AI 的团队协作能力,使用零和奖惩机制让 AI 能最大化团队利益,使其打法果断,有舍有得。
目前「绝悟」只是实验阶段,没有在游戏内开放。
比如「绝悟」的1v1移动端版本「AI电竞战队SUPEX」8月2日在上海举办的国际数码互动娱乐展览会ChinaJoy首次对公众亮相,面向顶级业余玩家展开为期四天的体验测试。
四天共场测试2100场,测试胜率为99.8%,仅输4场。
短期内,我们还是希望先将AI的策略协作能力提升到极致水平。随着「绝悟」能力不断提升,我们后续也可能会接受顶级职业战队的测试。
长期的话,「绝悟」将是腾讯攻克AI终极研究难题——通用人工智能的关键一步。不断让AI从0到1去学习进化,并发展出一套合理的行为模式,这中间的经验、方法与结论,长期来看,有望在大范围内,如医疗、制造、无人驾驶、农业到智慧城市管理等领域带来更深远影响。